HunyuanImage 2.1

https://gyazo.com/f08f6265e11e00402c9cfc5897212ba3

32×圧縮のVAEにより計算コストを(他VAE使用時の1K画像から)上げず2K画像の生成を行う

170億パラメータのDiT

MLLMとByT5(テキスト生成、多言語理解)のデュアルテキストエンコーダー

BaseモデルとRefinerモデルの二段構成

PromptEnhancerによるプロンプトの最適化